max rank | avg. rank | sentence |
---|---|---|
302 | 92.4615 | Gray, ngan ginhatag han pagkayana nga asya nga ngaran ni Samuel Frederick Gray. |
302 | 92.0000 | Gray, ngan ginhatag han pagkayana nga asya nga ngaran ni Samuel Frederick Gray och George Bentham. |
342 | 145.0000 | WoRMS Bryozoa: World Marine Bryozoa Database. |
350 | 189.8182 | An 1865 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 190.9091 | An 1870 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 184.2727 | An 1878 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 190.4545 | An 1880 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 189.0000 | An 1881 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 189.3636 | An 1886 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 186.0909 | An 1887 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 185.5455 | An 1888 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 184.0000 | An 1889 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 186.5455 | An 1892 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 182.4545 | An 1893 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 183.1818 | An 1896 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 179.6364 | An 1898 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 169.3636 | An 1908 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 172.0909 | An 1909 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 168.7273 | An 1911 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 172.6364 | An 1915 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 175.0909 | An 1916 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 180.9091 | An 1917 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 182.1818 | An 1918 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 179.2727 | An 1921 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 173.8182 | An 1926 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 170.9091 | An 1927 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 175.9091 | An 1928 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 175.7273 | An 1930 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 173.9091 | An 1936 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
350 | 189.6364 | An 1947 UC (ugsa kan Cristo) in uska tuig han kalendaryo. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II